<!DOCTYPE html>
<html>
  
<head><meta name="generator" content="Hexo 3.8.0">
  <meta charset="utf-8">
  <meta name="author" content="Amos Zhu">
  
  
  <title>Kafka架构探险（二）——一文带你了解Kafka | Amos的技术博客</title>

  <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">

  
    <meta name="keywords" content="kafka,kafka,">
  

  
  <meta name="description" content="上篇博文已经讲解了如何安装Kafka的集群环境，今天我们就来一本带大家了解下Kafka，了解kafka的特点以及基本概念">

  

  
    <script src="//cdn.jsdelivr.net/npm/leancloud-storage@3.11.1/dist/av-min.js" async></script>
  

  
    <script type="text/javascript" src="//cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/MathJax.js?config=TeX-MML-AM_CHTML" async></script>
  

  
    <script src="//unpkg.com/valine/dist/Valine.min.js" async></script>
  

  

  <script>
  // theme-ad's config script
  // it can be used in every script
  
  window.AD_CONFIG = {
    leancloud: {"appid":"eObxCkTJ6j4GzRxGLgiHyfJa-gzGzoHsz","appkey":"fzRMAFC6MCE11mp7mnvh4Kwe","comment":true,"count":true},
    welcome: {"enable":true,"interval":30},
    start_time: "2019-05-28",
    passwords: ["efe07af7441da2b69c4a41e42e73be4db47f66010a56900788a458354a7373ec", ],
    is_post: true,
    lock: false,
    author: "Amos Zhu",
    share: {"qq":true,"wechat":true},
    mathjax: true,
    page_type: "",
    root: "/blog/"
  };
</script>

  <script src="/blog/vendor/sha256.min.js"></script>
<script src="/blog/js/auth.js"></script>
<script src="/blog/js/index.js"></script>
<script src="/blog/vendor/qrcode.min.js"></script>

  
    <link rel="icon" href="/blog/images/favicon.ico">
    <link rel="apple-touch-icon" href="/blog/images/touch-icon.png">
  

  <link href="//netdna.bootstrapcdn.com/font-awesome/4.7.0/css/font-awesome.min.css" rel="stylesheet">

  <link rel="stylesheet" href="/blog/css/index.css">
<link rel="stylesheet" href="/blog/styles/components/highlight/highlight.css">

  
</head>
  <body>
    <header class="site-header">
  <div class="site-header-brand">
    
      <span class="site-header-brand-title">
        <a href="/blog/">Amos Zhu</a>
      </span>
    
    
      <span class="site-header-brand-motto"> | 当浮躁的心静不下，不妨写些东西或者看会书</span>
    
  </div>
  <div class="site-header-right">
    <nav class="site-header-navigation">
      
        <a href="/blog/" target="_self">首页</a>
      
        <a href="/blog/archives/" target="_self">归档</a>
      
        <a href="/blog/tags/" target="_self">标签</a>
      
        <a href="/blog/categories/" target="_self">分类</a>
      
        <a href="/blog/redis/" target="_self">redis</a>
      
        <a href="/blog/rabbitMQ/" target="_self">rabbitMQ</a>
      
        <a href="/blog/elasticsearch" target="_self">elasticsearch</a>
      
        <a href="/blog/stuff" target="_self">stuff</a>
      
        <a href="/blog/kafka" target="_self">kafka</a>
      
        <a href="/blog/friends/" target="_self">友链</a>
      
        <a href="/blog/about/" target="_self">关于</a>
      
    </nav>
    <div class="site-header-btn">
      
        <a href="https://gitee.com/amos_zhu" target="_blank" id="site-github">
          <i class="fa fa-github-alt"></i>
        </a>
      
      <a href="javascript:void(0);" id="site-search">
        <i class="fa fa-search"></i>
      </a>
      <a href="javascript:void(0);" id="site-nav-btn">
        <i class="fa fa-ellipsis-v"></i>
      </a>
    </div>
  </div>
</header>
<nav class="table-content" id="site-nav">
  <div class="table-content-title">
    <span>导航</span>
  </div>
  <div class="table-content-main">
    <ol class="toc">
      
        <li class="toc-item">
          <a href="/blog/" target="_self">
            首页
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/archives/" target="_self">
            归档
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/tags/" target="_self">
            标签
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/categories/" target="_self">
            分类
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/redis/" target="_self">
            redis
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/rabbitMQ/" target="_self">
            rabbitMQ
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/elasticsearch" target="_self">
            elasticsearch
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/stuff" target="_self">
            stuff
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/kafka" target="_self">
            kafka
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/friends/" target="_self">
            友链
          </a>
        </li>
      
        <li class="toc-item">
          <a href="/blog/about/" target="_self">
            关于
          </a>
        </li>
      
    </ol>
  </div>
</nav>
<div id="site-process"></div>
    <main>
      
  <div class="passage">
  <div class="passage-meta">
    <span>
      <i class="fa fa-calendar"></i>2019-10-18
    </span>
    
      <span>
        | <a href="/blog/categories/kafka/"><i class="fa fa-bookmark"></i>kafka</a>
      </span>
    
    
      <span>
        | <i class="fa fa-unlock-alt"></i>UNLOCK
      </span>
    
  </div>
  <h1 class="passage-title">
    Kafka架构探险（二）——一文带你了解Kafka
  </h1>
  
  <article class="passage-article">
    <p></p>

<h3 id="kafka的特点"><a href="#kafka的特点" class="headerlink" title="kafka的特点"></a>kafka的特点</h3><p>Kafka设计的初衷是为了解决互联网公司超大量级数据的实时传输，为了实现这个目标，需要考虑以下四个方面的问题</p>
<ul>
<li>吞吐量/延时</li>
<li>消息持久化</li>
<li>负载均衡和故障转移</li>
<li>伸缩性</li>
</ul>
<ol>
<li><strong>吞吐量</strong>是Kafka每秒能够处理的消息数，那么很显然，我们都希望系统的吞吐量越大越好，与此同时，还有个客户端发送指令，kafka服务端接受指令然后反馈给客户端的时间，这个时间就是<strong>延时</strong>，那么对于一个系统而言，延时时间间隔越短越好。而kafka是一个高吞吐量和低延时的系统，那么他是如何实现的呢？</li>
</ol>
<ul>
<li>大量使用操作系统页缓存，内存的操作速度快且命中率高</li>
</ul>
<p>由于大量使用也缓存，故读取消息时大部分消息很有可能依然保存在页缓存中，因此可以直接命中缓存，不用“穿透”到底层的物理磁盘上获取消息，从而极大的提升了读取的吞吐量</p>
<ul>
<li>kafka不直接参与物理I/O操作，而是交由最擅长此事的操作系统来完成</li>
<li>采用追加写入方式，摒弃了缓慢的磁盘随机I/O操作</li>
</ul>
<p>kafka在设计时采用了追加写入消息的方式，即只能在日志文件末尾追加写入新的消息，且不允许修改已经写入的消息，因此他属于典型的磁盘顺序访问型操作，这种类型的操作访问速度堪比内存的读写速度，性能是非常高的</p>
<ul>
<li>使用sendfile为代表的零拷贝技术加强网络间的数据传输效率</li>
</ul>
<p>kafka在读取消息时，会首先从OS的页缓存中读取，如果命中便把消息经页缓存直接发送到网络的Socket上，这个过程就是零拷贝技术</p>
<ol start="2">
<li>消息引擎都必须要具有持久化的机制，持久化的机制有如下的好处：</li>
</ol>
<ul>
<li>让消息的生产和消费解耦</li>
</ul>
<p>消息生产者只需要将消息发送给kafka即可，不必关系消息是被谁消费的，何时消费的</p>
<ul>
<li>灵活的消息处理</li>
</ul>
<p>消息保存在kafka中，方便实现消息重演这样的需求，可以很方便的处理消息</p>
<ul>
<li>减少内存的使用</li>
</ul>
<p>将消息持久化到kafka中，给内存释放出更多的空间，方便kafka使用页面缓存技术来提升系统的性能</p>
<ol start="3">
<li>kafka是一个分布式流处理平台，所以kafka具有分布式系统的两个重要的特性——负载均衡和故障转移</li>
</ol>
<ul>
<li>负载均衡就是让系统的负载根据一定的规则均衡的分配到所有参与工作的机器上，从而最大限度的提升整体系统的运行效率，kafka的负载均衡实际上是通过partition以及leader来实现的，后面再详细介绍</li>
<li>当分布式系统的一个节点出现了问题，无法发送心跳或者会话，则master服务器认为备份服务器已经无法工作 ，将会根据一系列的算法来计算新的节点，实现了系统的高可用性</li>
</ul>
<ol start="4">
<li>伸缩性，所谓的伸缩性表示向分布方式中额外的增加计算资源时吞吐量提升的能力，通俗点来讲，就是如何通过增加节点来扩展kafka集群环境的系统，这点kafka是通过将服务器的状态的相关的参数交给zookeeper来管理</li>
</ol>
<h3 id="kafka的基本概念"><a href="#kafka的基本概念" class="headerlink" title="kafka的基本概念"></a>kafka的基本概念</h3><ol>
<li>消息</li>
</ol>
<p>消息是每一个消息引擎的重中之重，好的消息的结构设计能极大的优化系统的性能，这里kafka处理的非常好，我们也有必要理解下kafka的消息的组成以及为什么</p>
<p>首先消息是由：消息头部、Key和Value组成，其中消息头部还包括：CRC、版本号、属性、时间戳和键长度。</p>
<p><img src="https://s2.ax1x.com/2019/10/05/uyLnlq.png" alt="image"></p>
<p>这里主要说明4个字段的含义：</p>
<ul>
<li>消息键：对消息做partition时使用，即决定消息被保存在某个topic下的哪个partition</li>
<li>消息体：保存实际的消息数据</li>
<li>时间戳：消息发送的时间戳，主要用于流式处理以及其他依赖时间的处理语义，默认是当前时间</li>
<li>属性：kafka使用一个字节来保存消息的压缩属性，当前只支持4中压缩属性：0——无压缩 1——GZIP压缩 2——Snappy压缩 3——LZ4压缩</li>
</ul>
<p><strong>Kafka使用二进制字节数组来保存消息，这个和RabbitMQ是一样的，为什么要这样设计呢？ 试想一下，如果我们使用Java的类来实现，如果存储成String字符串格式 ，那么对于Java内存模型，对象保存的开销是很大的，随着堆里面的数据量越来越大，GC的也就越频繁，那么系统的性能也就越差，其他Java的操作系统通常默认是开启页缓存机制的，也就是说堆上保存的对象可能在页缓存中还保留一份，这也造成了极大的资源浪费</strong></p>
<p>因此，kafka在消息设计时，直接使用紧凑二进制字节数据，这样我们就能有更多的内存使用</p>
<ol start="2">
<li>topic和partition</li>
</ol>
<p>准确来说，<code>topic</code>是一个逻辑上的概念，一般我们用来作为业务上的一个区分的尺度，代表一类消息，比如说A发送消息到topicA中，B发送消息到topicB中，一个<code>topic</code>可能被多个消费者来消费，为了提供系统的吞吐量，kafka提出了<code>partition</code>的概念，我们可以认为一个<code>topic</code>是由多个<code>partition</code>组成的</p>
<p><img src="https://s2.ax1x.com/2019/10/05/uyxdoT.png" alt="image"></p>
<p>kafka中的<code>partition</code>是不可修改的有序消息队列，每个<code>partition</code>有自己专属的<code>partition</code>号，通常是从0开始的，用户对<code>partition</code>唯一能做的就是在消息队列的尾部追加写入消息，每个消息队列中都有一个序号，这个序号就是接下里要说的 <code>offset</code></p>
<ol start="3">
<li>offset</li>
</ol>
<p><code>partition</code>中的每个消息队列都是固定的，并且从0开始递增</p>
<p>综合之前所说的<code>topic</code>和<code>partition</code>以及<code>offset</code>我们可以确定一条消息</p>
<ol start="4">
<li>replica</li>
</ol>
<p>我们知道<code>partition</code>是有序的消息队列，那么一定不是保存在一个地方的，否则一旦kafka挂了，其上保存的消息也就丢失了，分布式要实现高可用性，这里kafka采用了冗余机制——备份多个日志，这些日志在kafka中就被称为<code>replica</code>副本，他存在的唯一目的就是防止数据丢失</p>
<p><code>replica</code>分为: <code>leader replica</code>和<code>follower replica</code>,<code>follower replica</code>唯一的用途就是<code>leader replica</code>所在的<code>broker</code>宕机了，不能对外提供服务了，则kafka就会从剩余的<code>replica</code>中选举新的leader来提供服务</p>
<ol start="5">
<li>leader和follower</li>
</ol>
<p>上面我们说过什么是<code>leader</code>和<code>follower</code>,在kafka中，<code>leader</code>对外提供服务，<code>follower</code>只能被动的追随<code>leader</code>的状态，保持与<code>leader</code>同步，<code>follower</code>唯一存在的目的就是当<code>leader</code>宕机了，被选举称为新的<code>leader</code>来继续提供服务</p>
<p>kafka保证统一个<code>partition</code>的多个<code>replica</code>一定不会分配在同一台<code>broker</code>上，毕竟如果同一个<code>broker</code>上有同一个<code>partition</code>的多个<code>replica</code>,那么将无法实现备份冗余的效果</p>
<ol start="6">
<li>ISR</li>
</ol>
<p>ISR（in-sync replica）在kafka中是一个重要的概念， 翻译过来就是与 leader replica保持同步的replica集合， kafka为<code>partition</code>动态维护一个<code>replica</code>集合，该集合中的所有的replica保存的消息日志都与<code>leader replica</code>保持同步状态，只有这个集合中的<code>replica</code>才能被选为<code>leader</code>,也只有该集合中的<code>replica</code>都同时接收到同一条消息，kafka才会将该消息置为“已提交”状态，即认为该条消息发送成功</p>
<p>这里需要注意两点：</p>
<ul>
<li>ISR中至少需要一个“活着”的<code>replica</code></li>
<li>“已提交”消息</li>
</ul>
  </article>
  <aside class="table-content" id="site-toc">
  <div class="table-content-title">
    <i class="fa fa-arrow-right fa-lg" id="site-toc-hide-btn"></i>
    <span>目录</span>
  </div>
  <div class="table-content-main">
    <ol class="toc"><li class="toc-item toc-level-3"><a class="toc-link" href="#kafka的特点"><span class="toc-text">kafka的特点</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#kafka的基本概念"><span class="toc-text">kafka的基本概念</span></a></li></ol>
  </div>
</aside>
  
    <aside class="passage-copyright">
      <div>本文作者: Amos Zhu</div>
      
        <div>
          原文链接: 
          <a href target="_blank">http://amos_zhu.gitee.io/passages/Kafka架构探险（二）——一文带你了解Kafka/</a>
        </div>
      
      <div>
        版权声明: 本博客所有文章除特别声明外, 均采用 <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/">CC BY-NC-SA 4.0</a> 许可协议. 转载请注明出处!
      </div>
    </aside>
  
  
    <div class="passage-tags">
     
      <a href="/blog/tags/kafka/"><i class="fa fa-tags"></i>kafka</a>
    
    </div>
  
</div>

    </main>
    
      
<div class="site-comment-contanier" data-plateform="leancloud">
  
    <p id="site-comment-info">
      <i class="fa fa-spinner fa-spin"></i> 评论加载中
    </p>
    <div id="site-comment"></div>
  
</div>
    
    <div class="site-footer-wrapper">
  <footer class="site-footer">
    
      
        <div class="site-footer-col">
          <h5 class="site-footer-title">博客推荐</h5>
          
            <span class="site-footer-item">
              <a href="http://youzhixueyuan.com/series/java" target="_blank">优知学院</a>
            </span>
          
            <span class="site-footer-item">
              <a href="http://ruanyifeng.com/" target="_blank">阮一峰的个人网站</a>
            </span>
          
        </div>
      
        <div class="site-footer-col">
          <h5 class="site-footer-title">系列教程</h5>
          
            <span class="site-footer-item">
              <a href="http://amos_zhu.gitee.io/blog/redis" target="_blank">Redis系列教程</a>
            </span>
          
            <span class="site-footer-item">
              <a href="http://amos_zhu.gitee.io/blog/rabbitMQ/" target="_blank">RabbitMQ教程</a>
            </span>
          
            <span class="site-footer-item">
              <a href="http://amos_zhu.gitee.io/blog/kafka/" target="_blank">Kafka架构探险</a>
            </span>
          
        </div>
      
        <div class="site-footer-col">
          <h5 class="site-footer-title">抓到我</h5>
          
            <span class="site-footer-item">
              <a href="https://gitee.com/amos_zhu" target="_blank">Gitee</a>
            </span>
          
            <span class="site-footer-item">
              <a href="https://blog.csdn.net/wdcl2468" target="_blank">CSDN</a>
            </span>
          
            <span class="site-footer-item">
              <a href="https://www.jianshu.com/u/2dbe61b1f3c3" target="_blank">简书</a>
            </span>
          
        </div>
      
    
    <div class="site-footer-info">
      <i class="fa fa-clock-o"></i> 本站已稳定运行<span id="site-time"></span>
    </div>
    
      <div class="site-footer-info">
        <i class="fa fa-paw"></i> 您是本站第 <span id="site-count"></span> 位访客
      </div>
    
    
      <div class="site-footer-info">
        <i class="fa fa-at"></i> Email: amoszhu@aliyun.com
      </div>
    
    <div class="site-footer-info">
      <i class="fa fa-copyright"></i> 
      2019 <a href="https://github.com/dongyuanxin/theme-ad/" target="_blank">Theme-AD</a>.
      Created by <a href="https://godbmw.com/" target="_blank">GodBMW</a>.
      All rights reserved.
    </div>
  </footer>
</div>
    <div id="site-layer" style="display:none;">
  <div class="site-layer-content">
    <div class="site-layer-header">
      <span class="site-layer-header-title" id="site-layer-title"></span>
      <i class="fa fa-close" id="site-layer-close"></i>
    </div>
    <div class="site-layer-body" id="site-layer-container">
      <div class="site-layer-input" id="site-layer-search" style="display: none;">
        <div class="site-layer-input-choose">
          <a href="javascript:void(0);" title="Change Search Engine">Google</a>
        </div>
        <input type="text">
        <i class="fa fa-search"></i>
      </div>
      
        <div class="site-layer-reward" id="site-layer-reward" style="display: none;">
          
            <div>
              <img src="/blog/images/wechat.png" alt="WeChat">
              
                <p>WeChat</p>
              
            </div>
          
            <div>
              <img src="/blog/images/alipay.png" alt="AliPay">
              
                <p>AliPay</p>
              
            </div>
          
        </div>
      
      <div id="site-layer-welcome" style="display:none;"></div>
    </div>
  </div>
</div>
    

<div class="bottom-bar">
  <div class="bottom-bar-left">
    <a href="/blog/passages/Kafka架构探险（三）——Kafka参数详解/" data-enable="true">
      <i class="fa fa-arrow-left"></i>
    </a>
    <a href="/blog/passages/类以及属性集按照规则过滤——一个简单的构建思路来解决/" data-enable="true">
      <i class="fa fa-arrow-right"></i>
    </a>
  </div>
  <div class="bottom-bar-right">
    <a href="javascript:void(0);" data-enable="true" id="site-toc-show-btn">
      <i class="fa fa-bars"></i>
    </a>
    
      <a href="#site-comment" data-enable="true">
        <i class="fa fa-commenting"></i>
      </a>
    
    <a href="javascript:void(0);" id="site-toggle-share-btn">
      <i class="fa fa-share-alt"></i>
    </a>
    
      <a href="javascript:void(0);" id="site-reward">
        <i class="fa fa-thumbs-up"></i>
      </a>
    
    <a href="javascript:void(0);" id="back-top-btn">
      <i class="fa fa-chevron-up"></i>
    </a>
  </div>
</div>
    <div id="share-btn">
  
  
  
  
    <a id="share-btn-qq" href="javascript:void(0);" target="_blank">
      <i class="fa fa-qq"></i>
    </a>
  
  
    <a id="share-btn-wechat" href="javascript:void(0);" target="_blank">
      <i class="fa fa-wechat"></i>
    </a>
  
</div>
    


  <script async>
  (function(){
      var bp = document.createElement('script');
      var curProtocol = window.location.protocol.split(':')[0];
      if (curProtocol === 'https') {
          bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
      }
      else {
          bp.src = 'http://push.zhanzhang.baidu.com/push.js';
      }
      var s = document.getElementsByTagName("script")[0];
      s.parentNode.insertBefore(bp, s);
  })();
  </script>



  <script async>
    (function(){
    var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?":"https://jspassport.ssl.qhimg.com/11.0.1.js?";
    document.write('<script src="' + src + '" id="sozz"><\/script>');
    })();
  </script>


    
  </body>
</html>